a16z 将语音 AI 作为一个独立投资主题,行业图谱展示投资机会
AI 在语音(声音)这块的进步,有 3 个产品给了我非常深刻的印象(Wow moment),第一个是 ElevenLabs,让我第一次感觉到不再是机器人的感觉,也因此一直喜欢这个产品到现在。
第二个是 Hume AI,我之前称它为对话式 AI 的天花板,让我感受到了 AI 在情感和情绪方面的表达,也是体验过后就一直喜欢到现在,包括它们最近推出的实时交互式 AI 播客。
第三个就是 GPT-4o,也包括 Google 的 Project Astra,它们让更自然的人机交互体验又往前走了一步。我觉得基于语音来构建新型交互式产品的底层技术已经越来越成熟了,未来这块应该有很大机会。
事实上,a16z 在今年年初的 2024 Big ideas 播客里也探讨了 Voice-First Apps 的机会。a16z 认为,自通信诞生之日起,语音就是人类相互沟通的方式,但语音从未真正作为技术的接口。而从今年开始,语音正在成为一种新的与技术互动的方式,并成为新生产力应用的核心。
昨天,a16z Apps 基金 GP Anish Acharya 和 AI 领域合伙人 Olivia Moore 发布了一个新的投资主题:AI Voice Agents,也就是基于语音构建的 AI Agents,并发布了这个领域的行业图谱,探讨了在 2B 和 2C 领域的机会。这里做一下分享:
a16z 认为,现在是重新发明电话的时候了。多亏了通用人工智能,再也不需要人类打电话了。人类只会在电话对他们有价值时才会花时间打电话。
对于 B 端企业来说,这可能意味着:
节省人工呼叫的时间和劳动成本;
有潜力将资源重新配置到增加收入;
通过更合规和一致的客户体验降低风险。
对于 C 端消费者来说,语音 Agents 可以提供人类级别的服务,而无需付费或“匹配”真人。目前,这包括心理治疗师、教练和陪伴者,将来很可能会涵盖围绕语音构建的更广泛的体验。像大多数其他消费类软件一样,“赢家”将是难以预测的。
电话是通往世界的 API,而人工智能将其提升到了一个新的水平。而基于语音构建 AI Agents 在各个层面都有机会,但都需要满足下面 3 个假设:
1.为大规模扩展而设计。延迟和对话体验目前尚未得到解决,因此速度、精准度、语调/情感非常重要;
2.聚焦于垂直领域。这意味着高性能 Agent 应该是垂直化的,它依赖于针对特定应用场景的独特调整模型和紧密的集成,这更容易构建并成功推向市场/增长。3.范围现实可行(Realistic in scope)。这是一个很大的要求,完全将重要电话委托给 AI,我们期望语音 Agent 公司在短期内“做那些不能规模化的事情”(Do things that don’t scale)。这可能涉及根据客户进行调整,或者将电话转接给人类进行最后的处理。
【注:Realistic in scope 指一个计划、项目或目标的范围是现实可行的,既不过于宏大,也不过于狭隘,能够在给定的时间、资源和条件下实现】
技术堆栈:如何构建基于语音的 Agent
像 GPT-4o 这样的新型多模态模型可能会通过一个模型同时“运行”其中多个层来改变堆栈的结构。这可能会减少延迟和成本,并为更自然的对话界面提供支持——因为许多 Agents无法通过下面的组合堆栈达到真正的类似人类的质量。
若要运行,语音 Agent 需要引入人类语音 (ASR),使用 LLM 处理输入并返回输出,然后与人类 (TTS) 对话。
对于某些公司/方法,用 LLM 或一系列 LLMs 来处理对话流程和情感。在其他情况下,可能会有独特的引擎来添加情感、管理中断等,“全栈”语音提供商在一个地方提供这一切。
2C 和 2B 应用位于这个堆栈之上。即使使用第三方提供商,应用程序(通常)也会插入自定义 LLM——它通常也用作对话引擎。
全栈与自行组装(Full Stack vs. Self-Assembled)
语音 Agent 创始人可以选择在全栈平台(比方说 Retell、Vapi、Bland)上启动 agent 或自己组装堆栈。在做出此决定时,有几个关键因素要考虑:
1.复杂性。全栈供应商提供了一种更简单的方法来启动语音 Agent,它们抽象化了基础设施方面的复杂性,同时仍然允许自定义和调整,包括添加提示或知识文档 (RAG) 到插入 LLM。2.灵活性。为特定垂直领域和应用场景构建的创始人可能希望在堆栈的每个级别如何操作/运行方面具有最大的灵活性,并尽可能降低延迟。在自组装堆栈时,这可能更容易做到。3.成本。全栈提供商可能会引入额外的每次通话成本,因为他们也需要赚钱。但是,他们也可以为那些数量较大的客户协商更好的价格。对于大规模的语音 Agent,每分钟几美分的差异可能很大。4.控制。当出现问题时,语音 Agent 创始人需要能够立即跟踪和解决问题,尤其是对于一些敏感应用场景。他们可能还需要最大限度地了解每一层的运行方式。使用自行组装堆栈可能更容易做到这一点。
下面这个行业图谱是现在每个堆栈里的一些玩家,它还不太全面,但已经代表了语音 Agent 创始人最常提到的产品。随着多模态模型的出现,这些堆栈将发生重大变化。
2B 领域的 Agents
我们正在从 1.0 的 AI 语音(Phone tree)过渡到 2.0 的 AI 语音浪潮(基于 LLM)。在过去 6 个月左右的时间里,已经出现了 2.0 时代的公司。1.0 时代的公司目前在准确性方面有优势,但从长远来看,基于 2.0 构建的应该更具可扩展性和准确性。
不太可能存在一种横向模型或平台能够适用于所有类型的企业语音 Agent。各垂直领域之间存在一些关键差异:(1) 呼叫类型、语气和结构;(2) 集成和流程;(3) 市场进入策略和“杀手级功能”。
这可能意味着垂直 Agent 的激增,这些 Agent 在用户界面方面有很强的主观性。这需要具有深厚的行业专业知识或兴趣的创始团队。对于许多企业来说,劳动力是头号成本中心 —— 对于那些“做对了”的公司来说,TAM 是巨大的。
最近期的机会可能存在于那些电话预约至关重要、劳动力短缺严重、且呼叫复杂度低的行业。随着 Agent 变得更加复杂,它们将能够处理更加复杂的呼叫。
2B 领域 Agent 的 3 个演变浪潮
1.IVR(交互式语音应答),这是一种传统的按键式模型,Agent 给予消费者一组选项(按1转接至销售部,按2转接至客户支持),然后消费者根据需求进行选择。2.AI 1.0(电话树),这是 IVR 的一个稍微更灵活和直观的版本,其中消费者使用自然语言进行交流,而 Agent 则试图通过一系列对话流程引导他们。3.AI 2.0(LLMs),这是一种自由形式的对话,人工智能不会试图将人类说的每个单词与特定的预定义选项相匹配。
许多语音 Agent 公司正在针对特定行业(例如汽车服务)或特定类型的任务(例如约会安排)采用垂直特定的方法。这主要有几个原因:
执行难度。 将电话委托给 AI 需要高质量的执行水平,对话流程(以及客户端的后端工作流程)可能会迅速变得复杂/具体。针对这些垂直领域中的“边缘案例”构建的公司有更好的成功机会,比方说,通用模型会误解的独特词汇。
法规和许可证。 一些语音 Agent 公司面临着特殊的限制和需要的认证等。一个典型的例子是医疗保健(例如,HIPAA 合规性),尽管这种情况也出现在销售等领域,这些领域在国家层面上有 AI 陌生(cold)电话法规。
集成。 在某些类别中,实现用户体验的成功(无论是对于企业还是消费者)可能需要一系列的集成,或者是专门的集成,除非你试图服务于特定的使用案例,否则不值得去构建。
进入其他软件。 语音是进入核心客户行为(如预订、续订、报价等)的自然方式。在某些情况下,这将成为为这些企业构建更广泛的垂直 SaaS 平台的一个入口,尤其是如果客户群体仍然主要是线下运营的。
2B Agents 的机会在哪
1.基于 LLM,但不一定要从一开始就是 100% 自动化。AI 语音 Agent 的“强形式”将是完全由 LLM 驱动的对话,而不是交互式语音应答(IVR)或电话树方法。
然而,由于 LLM 在整个过程中并非百分之百可靠,因此在更敏感/更大的交易中可能会有一些(暂时的)“人工参与”。这也使得垂直特定的工作流程尤其重要,因为它们可以在尽可能减少人为干预的同时,最大程度地提高成功的概率,减少边缘案例。
2.调整自定义模型与提示 LLM 方法。2B 语音 Agent 将需要应对专业化(或垂直特定)的对话,而通用 LLM 可能不够用。
许多公司正在调整每个客户的模型(使用几百或几千个数据点),并可能将其推广到公司范围的基本模型。对于企业客户端,自定义调整甚至可以继续进行。注意:一些公司可能会为其特定用例调整一个“通用”模型(用于跨客户使用),然后基于每个客户进行提示。
3.具有专业知识的技术团队。考虑到语音 Agent 的复杂性,一些先前的背景知识将有助于(如果不是必要的话)启动和扩展高质量的 B2B 语音 Agent。然而,了解如何将产品打包并嵌入垂直领域可能同样重要,这需要所在领域的专业知识或浓厚的兴趣。你不需要拥有人工智能博士学位来构建和推出企业语音 Agent。
4.对于集成和生态系统的清晰观点。与上文类似,每个垂直行业的买家都有一些特定的功能或集成,他们通常希望在购买之前看到这些功能或集成。事实上,这可能是在他们的评估中将产品从“有用”提升到“神奇”的核心点。这也是为什么从非常垂直领域开始有意义的另一个原因。
5.要么是“企业级”的,要么是 PLG 的。对于收入主要集中在头部公司/供应商的行业,语音 Agent 公司可能从企业开始,最终通过自助服务产品逐步下沉到中小企业。中小企业客户迫切需要解决方案,并愿意尝试各种选择,但可能无法提供让初创公司将模型调整到企业级别所需的数据规模/质量。
2C Agent
在 2B 领域,语音 Agent 主要取代现有的电话呼叫来完成特定任务。对于 C 端 Agent,用户必须选择继续参与,这是具有挑战性的,因为语音并不总是方便交互,这意味着产品门槛更高。
2C 语音 Agent 的第一个和最明显的应用场景,是将昂贵或难以获得的人工服务替换为 AI。这包括心理治疗、辅导、家教等,任何可以在虚拟环境中完成的基于对话的任务。【注:我之前介绍的 AI 伴侣、AI Tutor 基本上都属于这类】
然而我们相信,在 2C 语音 Agent 中真正的魔力可能还没有出现,我们正在寻找利用语音的力量来实现以前不存在的新型“对话”的产品。这可能重新定义现有服务的形式,或者创造全新的服务。
对于掌握了用户体验的产品,语音 Agent 提供了一个前所未有的机会,让消费者的参与程度达到前所未有的水平,即真正模仿人与人之间的联系。这可能表现为 Agent 即产品,或语音作为更广泛产品的一种模式。
2C Agent 的演化
到目前为止,主要的 C 端 AI 语音 Agent 都来自大公司,比如 ChatGPT Voice 和 Inflection 的 Pi。这块出现较慢的原因有几个:
大公司拥有分发渠道和最优质的模型,准确度、延迟等方面都是一流的。语音在大规模交付上并不容易,尤其是考虑到最近推出的 GPT-4o。
2B 语音 Agent 是将 AI“接入”到现有流程中,而 2C 语音 Agent 则要改变用户的行为。这可能会更慢/需要一个更有魔力的产品。
由于使用 Siri 等产品的经历,消费者对语音 AI 产生了负面反应,因此不一定会尝试新应用。
通用产品通常能够实现语音 AI 的一些基本使用场景,比方说辅导和陪伴等。2C 语音初创公司才刚刚开始解决 ChatGPT、Pi 等不会处理的使用场景或者创造体验。
2C Agent 的机会在哪
1.对于为什么需要语音具有强烈的信念,我们对那些对语音如何为产品带来独特价值有独到见解的产品和创始人感到兴奋,而不仅仅是"为了语音而语音"。在许多情况下,与文本界面相比,语音界面实际上更冷淡,因为它更不方便消费和提取信息。
2.对于为什么需要实时语音具有强烈的信念,虽然语音不方便消费,但实时语音更加困难(与异步语音消息相比)。我们对那些对为什么他们的产品需要围绕实时对话构建有独特见解的创始人感到兴奋,也许是为了类似人类的陪伴、练习环境等。
3.不同于 AI 之前的产品,我们怀疑强形式的产品不会是以前人与人对话的直接翻译,其中 AI 语音 Agent 只是简单地取代了人工服务提供者。首先,达到那个标准很困难,但更重要的是,利用 AI 可以更好地提供相同的价值(更高效、更愉悦)。
4.垂直到通用大模型无法胜出的程度,领先的通用 AI 产品(如 ChatGPT、Pi、Claude)具有高质量的语音模式。它们可以有意义地参与许多类型的对话和互动。在短期内,它们可能会在延迟和对话流畅度方面胜出,因为它们拥有自己的模型和技术堆栈。
我们希望看到初创公司无论是通过为特定类型的对话定制或调整,还是通过构建提供更多上下文和价值的 UI 来实现都感到兴奋,比方说随着时间的推移跟踪进度,或以独特的方式引导对话/体验。
加入 Memo Pro 会员,获取更多趋势信号
Memo: Signal, not noise!
扫码或点击「阅读原文」继续阅读
订阅 Memo ProMemo(vcsmemo.com)是一个基于付费订阅模式的创投内容平台,已得到大量 VC、企业 CEO 以及高管的支持,我们希望帮助你捕捉最具价值的趋势信号、过滤噪音(Signal,Not Noise)。
订阅 Memo Pro 你将获得:
1.解锁未来一年以及之前的所有会员专属内容2.邮件订阅功能:付费内容+最新行业快讯+...3.优先体验 Memo 新产品和新功能4.后台回复“发票”获得开票入口
限时 599 元/年,扫码立即订阅
6 个月估值增长 10 倍到 11 亿美金,AI 语音克隆彻底火了
对话式 AI 的天花板来了,Hume AI 再拿 5000 万美金融资
1 个月挣 3 万美金, AI 女朋友也开始多模态可文字图片语音甚至电话
用 AI Tutor 教美国中小学生数理化,Top AI 产品均来自国内
AI 取代人类的工作,正在从客服行业开始